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摘要 : 分 析 数 据 演化 下 的 基于 相关 性 聚 类 的 增 量 实体 解析 机 制 。 针 对 增 量 实体 解析 过 程 展 开 
分 析 和 研究 ， 首 先 探讨 静态 数据 集中 的 实体 解析 、 然 后 分 析 基 于 相关 性 聚 类 的 解析 机 制 ， 最 
后 研究 面向 数据 演化 的 实体 解析 过 程 。 基 于 相关 性 聚 类 的 增 量 实体 解析 技术 能 很 好 地 运用 于 
频繁 更 新 的 数据 环境 中 。 仅 从 聚 类 技术 角度 分 析 了 面向 数据 演化 的 增 量 实体 解析 技术 现状 ， 
未 给 出 该 技术 的 详细 算法 描述 .有 助 于 较 全 面 系统 地 理解 面向 数据 演化 的 实体 解析 过 程 及 其 
内 在 的 相关 技术 难点 。 
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中 图 分 类 号 : TP393 


类 ; 增 量 实体 解析 


ae 


A Review on Entity Resolution Based on Data Evolution 
Gao Guangshang!” 
(1. National Science Library of CAS, Beijing 100190) 
(2. University of Chinese Academy of Sciences, Beijing 100190) 


Abstract: To analyse the mechanism of incremental entity resolution based on correlation 
clustering on data evolution. This paper analyses and studies the process of entity 
resolution, first discusses the entity resolution of static data collection, then analyses the 
mechanism of entity resolution based on Correlation Clustering, finally studies the 
process of entity evolution on data evolution. Incremental entity resolution based on 
Correlation Clustering can be used in frequently updated data environment. Only 
studies the technical situation of incremental entity evolution on data evolution in terms 
of clustering technique, not gives a detailed arithmetic statements of the technology. 
This paper will facilitate to give an comprehensive overview of the process of entity 
resolution on data evolution and its inherent technical difficulties. 
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1 引言 


实体 解析 就 是 识别 出 数据 集中 那些 表示 同一 现实 世界 实体 的 记录 的 过 程 。 事 
实 上 ， 实 体 解析 过 程 不 是 一 次 性 的 ， 而 是 随 着 数据 、 模 式 和 应 用 不 断 变化 而 变化 
KEFEN, 大 数据 时 代 背 景 下 , 越 来 越 多 的 数据 在 进一步 被 分 析 处 理 前 需要 匹配 、 
聚 类 或 整合 ， 因 而 面向 数据 演化 的 实体 解析 研究 受到 越 来 越 多 的 关注 外。 然而 ， 
这 一 研究 由 于 数据 具有 海量 、 多 样 、 异 构 和 动态 变化 等 特性 而 受到 了 新 的 挑战 。 
主要 体现 在 以 下 两 个 方面 : 首先 , 解析 过 程 因为 数据 量 大 而 花费 较 长 的 解析 时 间 ， 
如 数据 集中 包含 数 以 亿 计 的 记录 。 其 次 , 解析 结果 因为 数据 的 快速 更 新 而 很 快 变 
得 过 时 、 无 效 ， 如 记录 的 属性 值 随时 间 而 更 改 。 为 有 效应 对 这 一 挑战 ， 面 向 数据 
演化 的 实体 解析 机 制 不 仅 要 有 与 传统 朴素 方法 (从 头 开 始 对 数据 集 执 行 实体 解析 ) 
类 似 的 查 准 率 和 碍 全 率 ， 而 且 要 有 比 传统 朴素 方法 更 快 的 解析 效率 。 

尽管 面向 数据 演化 的 实体 解析 主要 解决 如 何 保持 解析 结果 最 新 这 一 问题 ， 但 
它 需 要 基于 一 个 已 清洗 、 整 理 过 的 “干净 ”数据 集 ， 因 为 需要 利用 数据 集中 已 识 
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工作 (如 不 必要 的 记录 对 比较 ) ， 从 而 满足 近乎 实时 的 解析 需求 。 本 文 在 回顾 相 
关 研 究 的 基础 上 ， 从 对 数据 进行 聚 类 的 角度 阐述 面向 数据 演化 的 实体 解析 机 制 。 
为 此 ， 笔 者 主要 从 相关 研究 、 静 态 数据 集中 的 实体 解析 、 基 于 相关 性 聚 类 
(Correlation Clustering ) 的 解析 机 制 和 面向 数据 演化 的 实体 解析 4 个 方面 进行 梳 
里 和 分 析 ， 以 期 为 未 来 进一步 的 相关 研究 提供 基础 。 

2 相关 研究 

为 有 效 解雇 数据 演化 下 的 增 量 实体 解析 问题 ， 现 有 大 部 分 研究 主要 是 基于 聚 
类 算法 来 设计 一 种 增 量 聚 类 算法 , 从 而 能 充分 利用 先前 的 聚 类 结果 以 对 新 到 数据 
实施 有 效 的 解析 。 为 此 , 笔者 从 经 典 聚 类 算法 和 一 般 聚 类 算法 两 方面 来 综述 基于 
它们 的 增 量 实体 解析 研究 。 

2.1 基于 经 典 聚 类 算法 的 增 量 实体 解析 

在 增 量 实体 解析 研究 中 采用 的 经 典 聚 类 算法 主要 包括 凝聚 层次 聚 类 算法 、K- 
menas 算法 和 相关 性 聚 类 算法 。 它 们 共同 的 优点 就 是 算法 思想 简单 ， 适 合 于 大 量 
数据 环境 下 的 聚 类 。 

2.1.1 凝聚 层次 聚 类 算法 

凝聚 层次 聚 类 算法 满足 增 量 性 质 ， 因 而 基于 它 设 计 的 增 量 聚 类 算法 能 满足 数 
据 演化 下 的 实体 解析 需求 。 

针对 动态 环境 中 非 增 量 层次 聚 类 方法 面临 的 效率 低下 问题 ，DH Widyantoro 
等 四 提出 了 增 量 凝聚 层次 聚 类 算法 (Incremental Hierarchical Clustering, IHC) ， 
则 在 构建 一 个 满足 同 质 性 (Homogeneity) 和 单调 性 (Monotonicity ) 的 层次 结构 。 
同 质 性 秘 是 一 个 有 相似 密度 的 对 象 的 集合 。 如 果 一 个 簇 的 密度 总 是 高 于 其 父 非 秘 ， 
那么 禾 的 层次 结构 满足 单调 性 。 算 法 以 自 底 向 上 的 方式 运行 ,在 将 新 来 实例 放置 
于 层次 结构 后 , 算法 只 对 受 新 实例 出 现 所 影响 的 区 域 进行 一 系列 层次 结构 调整 过 
程 。 

为 对 度量 空间 (Metric Space) 中 的 动态 结 点 集 进行 聚 类 ， 在 受到 信息 检索 领 
域 一 些 应 用 的 启发 下 ， 诸 如 文档 和 图 像 分 类 等 应 用 ，Charikar, M. 等 局 提出 了 基于 
层次 凝聚 的 增 量 聚 类 算法 (Incremental Clustering Algorithms, ICA) 。 算 法 的 目 
标 是 ， 随 着 新 结 点 的 插入 ， 算 法 能 有 效 地 维持 一 些 具 有 最 小 直径 的 复 。 涉 及 的 增 
量 聚 类 问题 定义 为 : 对 度量 空间 中 一 个 有 ?个 结 点 的 更 新 序列 (Update Sequence) 
来 说 ， 维 持 一 个 有 k 个 秘 的 集合 ， 使 得 每 当 有 新 结 点 出 现时 ， 它 或 者 分 配 到 当前 
k 个 秘 中 的 某 个 徐 ， 或 者 在 该 集合 中 新 增 一 个 包含 该 结 点 的 簇 ， 此 时 需要 将 两 个 
现 有 的 簇 合并 成 一 个 徐 ， 因 为 徐 的 总 数 预 定 为 k。 不 同 于 其 他 聚 类 技术 ， 该 增 量 
肾 类 算法 需要 预先 设 定 簇 的 总 数 。 

Omar Benjelloun 等 外 将 实体 解析 问题 分 成 了 两 个 方面 ， 匹配 与 合并 记录 的 黑 
MPZ (black-box) 和 调用 这 些 函 数 的 实体 解析 算法 。 这 种 划分 带 来 的 两 个 好 处 
是 : 产生 一 些 可 被 许多 应 用 使 用 、 有 具有 良好 语义 结构 的 通用 实体 解析 算法 ; 专注 
于 算法 性 能 指标 〈 减 少 对 潜在 昂贵 的 黑 盒 函 数 的 调用 次 数 ) 。 在 此 基础 上 ， 作 者 
提出 了 一 个 很 容易 适应 新 数据 或 特征 不 断 出 现 的 增 量 环境 下 的 “F-Swoosh” 算 法 。 
由 于 算法 利用 多 个 哈 希 表 (Hash Tables) 来 保存 值 ， 因 此 ， 当 新 记录 出 现时 ， 可 
不 必 在 整个 记录 集 上 运行 “F-Swoosh” 算 法 ， 从 而 避免 在 记录 间 进 行 一 些 不 必要 
的 比较 ， 尤 其 是 在 已 经 知道 记录 不 匹配 的 情况 下 。 对 新 特征 的 处 理 与 此 类 似 。 
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2.1.2 K-means RŽ E 
针对 K-means REA oF a PCY Mal el, Pham 等 中 提出 了 一 种 
通过 移动 簇 中 心 以 减少 簇 失真 (Cluster Distortion) 的 增 量 K-means 聚 类 算法 
(Incremental K-means) 。 提 出 的 搜索 策略 减少 了 算法 对 簇 中心 初 始 化 的 依赖 ， 
并 且 算 法 仅 需 要 运行 一 次 就 能 实现 几乎 最 佳 的 结果 。 
2.1.3 相关 性 聚 类 算法 


针对 数据 项 以 在 线 方式 出 现 的 在 线 聚 类 问题 ，Claire mathieu 等 外 研究 基于 相 
关 性 聚 类 的 增 量 相关 性 聚 类 算法 (Incremental Correlation Clustering) ， 其 主要 关 
注 两 点 : 也 每 次 加 入 一 个 顶点 ; 思 已 识别 的 聚 类 结果 需要 保存 。 当 数据 项 一 到 
iA, v 和 先前 到 达 的 数据 项 之 间 的 关系 就 会 被 揭示 , 结果 是 对 于 每 个 数据 项 wu, 我 
们 知道 它 是 否 与 相似 。 算法 可 能 会 为 产生 一 个 新 的 复 , 并 将 它 与 现 有 的 簇 合 3 
由 于 算法 一 直 维 持 数据 项 的 聚 类 结果 到 相似 的 类 别 , 因而 非常 适合 那些 对 某 事 感 
兴趣 的 应 用 。 

针对 大 数据 时 代 下 的 数据 更 新 快 而 使 先前 解析 结果 很 快 失 效 的 问题 ， 例 如 ， 
某 些 属性 值 随时 间 变 化 而 变化 等 。Anja Gruenheid 等 巴 提 出 了 一 个 端 到 端 框架 来 
对 增 量 操作 《包括 插入 ， 删 除 和 修改 操作 ) 涉及 的 记录 实施 增 量 聚 类 。 其 中 基于 
相关 性 聚 类 的 增 量 聚 类 算法 , 不仅 能 增 量 更 新 聚 类 结果 ， 而 且 能 在 不 影响 原 有 聚 
类 结果 的 情况 下 将 增 量 操作 涉及 的 记录 与 现 有 的 艇 进行 合并 或 分 离 , 并 能 利用 增 
量 操作 中 的 新 证 据 来 修正 先前 存在 的 聚 类 错误 情况 。 重 要 的 是 , 算法 能 显著 减少 
聚 类 过 程 所 需要 的 时 间 ， 同 时 无 损 聚 类 质量 ， 进 而 满足 面向 数据 演化 的 近乎 实时 
的 解析 需求 。 
2.2 基于 一 般 聚 类 算法 的 增 量 实体 解析 


由 于 增 量 实体 解析 与 聚 类 数据 流 (Data Streams) 的 问题 密切 相关 ， 因 而 可 利 
用 研究 聚 类 数据 流 的 方法 来 研究 增 量 实体 解析 问题 。 

针对 动态 数据 集中 随时 存在 增加 、 删 除 记 录 的 可 能 这 一 问题 ，Can 等 上 0 提出 
了 适用 于 动态 信息 处 理 的 增 量 聚 类 算法 , 该 算法 能 在 不 显著 影响 当前 所 有 簇 的 情 
况 下 ， 只 分 析 与 改变 相关 的 簇 。 

Aggarwal 等 0 认为 针对 数据 流 开发 的 聚 类 算法 , 尽管 解决 了 聚 类 技术 中 的 可 
扩展 性 问题 ,但 通常 对 数据 演化 问题 视而不见 , 并且 没有 解决 以 下 2 个 问题 : (1) 
当 数 据 随 时 间 不 断 演化 时 ， 形 成 的 簇 的 质量 差 。 (2) 数据 流 聚 类 算法 需要 更 多 
的 功能 以 在 数据 流 的 不 同 部 分 上 去 发 现 和 探索 得。 为 了 聚 类 大 量 演 化 的 数据 流 ， 
作者 提出 了 一 个 高 效率 的 CluStream 算法 。 该 算法 有 超越 其 他 技术 的 明显 优势 是 : 
其 他 技术 试图 一 次 性 聚 类 整个 数据 流 , 而 不 是 将 数据 流 看 成 是 一 个 随时 间 不 断 改 
变 的 过 程 。CluStream 算法 能 描述 (Characterize〉 演 化 环境 中 不 同时 间 段 上 的 数 
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Steven Euijong Whang 等 由 对 现 有 不 能 适应 数据 演化 的 聚 类 技术 进行 改进 , 定 
义 了 一 个 能 保证 数据 演化 准确 性 的 增 量 性 质 (General Incremental, GI) ， 提 出 了 
一 个 满足 该 增 量 性 质 的 增 量 数据 算法 (Incremental Data Algorithm) 。 由 于 能 充分 
利用 先前 的 聚 类 结果 ,因此 ,， 增 量 数据 算法 在 面向 数据 演化 时 不 仅 能 一 次 解析 一 
条 记录 ， 而 且 有 较 好 的 解析 效率 。 

Heiko Müller 等 中 认为 清洗 数据 是 一 项 耗 时 且 代 价 高 郧 的 任务 。 在 已 执行 数 
据 清洗 并 获得 一 个 无 错误 的 “干净 ”数据 集 后 ， 当 数据 集中 的 一 些 记录 值 出 现 变 


更 时 ， 人 们 不 想 完全 执行 整个 数据 清洗 过 程 。 仅 对 受 变更 值 影响 的 部 分 重新 执行 
清洗 过 程 即 可 ， 其 中 ， 通 过 分 析 清 洗 谱系 〈Cleansing Lineage) 来 确定 受 影响 的 
部 分 。 清 洗 谱系 不 仅 维持 那些 已 正确 识别 的 记录 ， 而 且 维 持 那些 在 清洗 过 程 中 证 
实 为 正确 识别 的 记录 。 

Hernandez 等 1] 认为 一 旦 数据 集 已 被 清洗 (通过 实体 解析 方法 ) 并 存储 以 供 
将 来 使 用 ,那么 在 重新 运用 清洗 方法 前 ,将 已 清洗 过 的 数据 与 新 到 来 的 数据 进行 
串 接 〈Concatenation) 可 能 不 是 要 遵循 的 最 佳 策 略 。 特 别 地 ， 新 的 增 量 数据 在 短 
期 内 可 用 的 情况 下 , 在 对 数据 进行 清洗 前 ， 串 接 所 有 数据 被 证 明 是 在 时 间 和 空间 
方面 代价 高 昂 。 为 此 ， 作 者 提出 了 一 个 增 量 式 清洗 算法 ,在 短 时 间 内 能 很 好 地 解 
析 新 增 数 据 。 
3 静态 数据 集中 的 实体 解析 


在 静态 数据 集 ( 数 据 集 是 静态 不 变 的 ) 上 的 实体 解析 通常 采用 索引 技术 
(Indexing Techniques) 来 减少 需要 比较 的 记录 对 中 ， 或 者 说 过 滤 挥 那些 非常 不 
可 能 匹配 的 记录 对 , 进而 让 比较 只 在 那些 最 有 可 能 匹配 的 记录 对 间 进 行 , 最 终 让 
解析 速度 加 快 。 本 质 上 ， 索引 技术 会 将 整个 数据 集 划 分 成 多 个 块 ， 那些 位 于 块 内 
的 记录 称 为 候选 记录 , 它们 将 会 被 详细 比较 (计算 候选 记录 对 的 详细 相似 性 值 )。 
对 于 大 部 分 只 包含 一 条 记录 的 块 来 说 ,其 中 的 记录 被 认为 已 识别 出 来 , 即 它们 单 
独 表示 一 个 现实 世界 实体 ， 因 而 无 须 再 进行 详细 比较 。 很 显然 ， 对 块 中 包含 的 多 
条 记录 进行 详细 分 析 ， 以 识别 它们 是 否 表 示 同 一 个 现实 世界 实体 ,是 静态 数据 集 
中 实体 解析 的 研究 重点 。 鉴 于 此 , 笔者 从 计算 相似 性 和 构造 相似 图 形 两 个 方面 进 
行 分 析 。 

3.1 计算 相似 性 

在 决定 两 条 记录 是 否 表示 同一 个 现实 世界 实体 时 ， 需 要 将 两 条 记录 对 应 属性 
上 的 值 进行 逐一 比较 ， 并 计算 出 相似 性 值 叶 。 计算 过 程 如 图 1 所 示 , 假设 比较 的 
两 条 记录 r, r' 同 属于 人 物 类 ,属性 为 名 字 、 邮 箱 等 , 方 框 中 的 值 表示 记录 对 应 属 
性 上 的 值 ， 方 框 间 连 线 上 的 实数 值 (如 0.8) 表示 对 应 属性 的 值 的 相似 性 大 小 。 
很 显然 ， 这 里 需要 一 个 病 值 (ga) 来 判定 对 应 属性 的 值 的 相似 性 是 否 成 立 ， 即 如 
果 相 似 性 值 大 于 该 浆 值 时 ， 就 认为 对 应 属性 彼此 相似 。 在 计算 出 对 应 属性 的 相似 
性 值 后 ， 接 下 来 ， 仅 将 那些 相似 性 成 立 的 属性 的 相似 性 值 进 行 线性 相 加 ， 就 可 计 
算出 两 条 记录 间 的 相似 性 值 。 具体 可 通过 式 子 s(7,7”) = f(r,7') 来 计算 , 其 中 ， 
s 表 示 用 来 计算 两 条 记录 是 否 相 似 的 相似 函数 , 或 称 为 记录 分 类 器 ，f 表 示 用 来 计 
算 两 个 对 应 属性 是 否 相 似 的 相似 函数 ,或 称 为 属性 分 类 器 中 1。 同样 ， 这 里 需要 一 
ARE CB) 来 指定 两 条 记录 的 相似 性 是 否 成 立 。 如 果 两 条 记录 的 相似 性 值 大 于 
ZBE, Wsi, r) > B, 那么 就 认为 两 条 记录 r 和 7r' 表 示 同 一 个 现实 世界 实体 。 这 
种 判定 两 条 记录 是 否 相 似 的 方法 称 为 成 对 相似 性 方法 (Pairwise Similarity )"''®!, 
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图 1 计算 记录 间 的 相似 性 (Pairwise Similarity) 


值得 注意 的 是 ， 记 录 间 的 相似 性 计算 过 程 与 具体 的 应 用 环境 有 关 ， 主 要 涉及 
3 个 方面 : 一 是 采用 哪 种 相似 性 度量 来 对 属性 值 进行 比较 ， 如 编辑 距离 、 字 符 串 
精确 匹配 、Ad hoc 相似 和 Jaccard 相似 等 ( 引 ， 二 是 如 何 组 合 这 些 计 算出 的 相似 性 
值 ， 如 采用 一 般 线 性 相 加 、 考 虑 属性 的 权重 中 ,三 是 如 何 设 定 作 为 判定 标准 的 立 
lfa, BRIKA, 
3.2 构造 相似 图 形 


为 系统 地 阐述 静态 数据 集中 的 实体 解析 过 程 ， 这 里 不 考虑 能 加 快 解 析 速 度 的 
索引 技术 。 一 旦 确定 了 如 何 计算 记录 间 相 似 性 的 方法 , 接 下 来 就 可 对 单个 数据 集 
中 的 所 有 记录 对 计算 相似 性 值 (如 同 对 块 内 的 记录 对 进行 相似 性 计算 ,以 判定 它 
们 是 否 表示 同一 个 现实 世界 实体 ) 。 在 单个 数据 集中 逐 对 计算 记录 间 是 否 相似 的 
过 程 ， 实 际 上 就 是 对 表 本 身 中 的 记录 做 笛 卡 尔 积 P20， 即 比较 所 有 可 能 的 记录 对 。 
对 两 个 不 同 的 数据 集 而 言 ， 计 算 过 程 与 此 类 似 。 表 1 中 的 数据 集 包含 6 条 记录 
(rir) ， 按 照 笛 卡尔 积 的 逐 对 比较 方式 ， 共 需 进 行 6(6-1)/2=15 次 比较 。 


表 1 数据 集 
id ID | 名 姓 年 龄 | 街道 名 城郊 出 生日 | 出 生 月 | 出 生年 
ri john smith 18 miller st dickson | 12 11 1970 
T2 jonny smith 73 miller st dixon 11 10 1970 
T3 joan smith 73 dawsoncr | lyneham | 11 12 1979 
ra max miller 73 dawson cr | lyneham | 11 2 1969 
Tz sal bass 67 milles rd ainslie 28 5 1981 
Te sally bass 64 miles rd ainsile 23 5 1981 


表 2 中 列 出 了 这 些 记录 间 的 相似 性 值 (通过 图 1 中 所 示 的 方式 计算 ) ， 以 及 
它们 与 浆 值 比较 后 的 匹配 状态 , 其 中 , 匹配 状态 的 判定 过 程 称 为 成 对 分 类 技术 P1， 
BU AAU PEE A FRE 5.0 就 匹配 ， 人 否则 不 匹配 。 表 2 中 共有 4 对 记录 是 匹配 的 。 

表 2 数据 记录 匹配 表 


候选 记录 对 相似 性 值 〈 函 数 SimSum 算出 ) | Classification (Jp =5.0) 
(71,12) 5.20 匹配 

(rur) 3.30 不 匹配 

(ro Ta) 1.15 不 匹配 

(%, Ts) 0 不 匹配 

(176) 0 不 匹配 


(12,73) 5.05 匹配 

(12,4) 2.70 不 匹配 
(7>,7s) 0 不 匹配 
(72,76) 0 不 匹配 
(r3, T4) 5.25 匹配 

(73, Ts) 0 不 匹配 
(73,76) 0 不 匹配 
(1%, rs) 0 不 匹配 
(ra Te) 0 不 匹配 
(rs, T6) 6.20 匹配 


然而 ， 这 种 单独 而 非 集体 地 将 记录 对 划分 成 匹配 或 不 匹配 的 决定 将 会 引发 判 
定 不 一 致 性 矛盾 ， 即 传递 闭 包 问 题 31。 为 方便 分 析 这 种 问题 的 本 质 ， 可 依据 表 2 
中 记录 对 的 相似 性 值 ( 匹 配 信息 ) 构造 出 一 个 相似 图 形 (Similarity Graph) “|, 
用 符号 6G 来 表示 ， 如 图 2 所 示 。 图 2 一 个 结 点 表示 一 条 记录 ， 结 点 间 的 实 线 边 表 
示 两 条 记录 相似 ， 实 线 边 上 的 数值 表示 相似 性 值 (如 5.25) ， 或 称 为 边 的 权 值 。 
4 条 实 线 边 表示 存在 4 个 匹配 。 
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图 2 构造 的 相似 图 形 

传递 财 包 是 指 这 样 一 种 情况 : 如 果 记 录 对 (ri, 7) 补 划分 为 匹配 (表示 同一 个 
现实 世界 实体 ，， 而且 记 录 对 (wj, re) 被 划分 为 丐 配 ， 从 而 记录 对 (ri, 7) 匹配 , 但 
是 记录 对 (ri, ry) 在 计算 相似 性 值 时 却 被 划分 为 不 匹配 。 这 与 直觉 相 矛 盾 ， 图 2 中 
记录 对 (74,72)、(72,73) 和 和 (73,74) 逻 配 ( 实 线 相连 ) ， 由 于 匹配 的 传递 性 ， 那么 记录 
对 (ni,ny) 也 应 是 匹配 的 ( 实 线 连接 的 结 点 应 被 看 成 一 组 ， 表 示 同 一 个 现实 世界 实 
体 ) ， 但 在 计算 记录 对 (ni,ny) 时 却 被 划分 为 不 匹配 (如 表 2 所 示 ) 。 很 显然 ， 如 
果 应 用 传递 闭 包 这 一 性 质 ， 那么 将 会 涉及 改变 记录 对 的 匹配 状态 , 使 得 组 内 的 记 
录 间 不 会 出 现 匹 配 状态 相 矛 盾 的 情况 31。 即 尽管 结 点 彼此 相连 , 但 它们 不 应 划分 
到 同一 组 内 ， 这 样 ， 划 分 到 同一 组 内 的 结 点 就 将 满足 传递 闭 包 这 一 性 质 。 

另外 , 匹配 的 传递 性 也 将 导致 记录 “ 链 ” 问 题 。 图 2 中 包含 两 条 记录 “ 链 ”， 
分 别 是 nj 一 用 组 成 的 记录 “ 链 ” 和 7 一 re 组 成 的 记录 “ 链 ”。 然 而 ， 在 “ 链 ” 两 
端的 记录 彼此 可 能 完全 不 同 ， 因 而 它们 不 应 被 认为 是 匹配 的 。 如 记录 对 (n,n) 的 
相似 性 值 为 1.15， 因 而 它们 不 可 能 表示 同一 个 现实 世界 实体 。 

尽管 有 研究 认为 : 在 现实 数据 集中 ， 通 过 成 对 分 类 技术 产生 的 记录 “ 链 ” 问 
题 似乎 很 少 发 生 ， 因 为 在 不 同 记录 属性 中 的 所 有 可 能 值 的 空间 非常 大 ， 因 此 , 那 
些 不 匹配 记录 对 彼此 具有 很 高 相似 性 的 可 能 性 非常 少 情 2221。 

但 是 ， 为 解决 匹配 记录 “ 链 ” 问 题 ， 现 有 的 研究 主要 采用 聚 类 方法 〈 如 相关 
ERK) 来 将 一 组 记录 划分 为 匹配 ， 而 不 仅 是 通过 单独 记录 对 匹配 的 方式 来 将 一 
组 记录 划分 为 匹配 。 


4 基于 相关 性 聚 类 的 解析 机 制 

为 解决 记录 “ 链 ” 问 题 ， 相 关 性 聚 类 方法 将 通过 对 簇 内 结 点 相似 性 和 簇 间 结 
点 相似 性 的 分 析 来 综合 决定 ，“ 链 ”上 的 哪些 记录 应 划分 到 一 起 形成 饼 可 能 会 更 
合理 ， 而 不 是 简单 地 将 “ 链 ” 上 的 所 有 记录 都 划分 到 同一 个 簇 中 。 从 而 让 最 终 形 
成 的 簇 满足 传递 闭 包 要 求 , 即 艇 内 的 记录 彼此 都 相似 且 表 示 同 一 个 现实 世界 实体 。 

为 重点 而 详细 地 梳理 相关 性 聚 类 解析 机 制 ， 笔 者 主要 从 相关 性 聚 类 的 基本 思 
想 和 目标 函数 两 个 方面 进行 分 析 。 
4.1 基本 思想 

相关 性 聚 类 被 认为 是 实体 解析 的 一 个 标准 方法 ， 最 初 由 Bansal Ateh., 
其 算法 的 输入 与 其 他 聚 类 算法 相同 ， 即 算法 的 输入 都 是 相似 图 形 6， 其 中 ， 图 中 
的 每 个 结 点 代表 数据 集中 的 一 条 记录 ,每 条 边 代 表 连 接 的 结 点 相似 , 边 上 的 权 值 
为 结 点 间 的 相似 性 值 sim(7,r') (0 < sim(r,r') <1) 。 图 2 就 是 这 样 一 个 相似 
图 形 。 相 关 性 聚 类 就 是 在 相似 图 形 上 进行 自动 划分 ， 即 对 网 中 结 点 进行 聚 类 。 

这 种 基于 图 划分 所 进行 的 聚 类 并 不 是 孤立 地 基于 记录 对 间 的 相似 性 值 进行 
识别 诀 策 ， 而 是 充分 考虑 了 多 个 待 识别 结 点 之 间 的 相似 性 。 因 此 ， 当 确定 将 图 中 
某 个 结 点 分 配 到 某 个 簇 时 , 不 是 简单 地 依赖 该 结 点 与 某 一 个 其 它 结 点 的 相似 性 值 ， 
而 是 依赖 于 该 结 点 与 这 个 目标 簇 中 的 所 有 结 点 , 甚至 其 他 艇 中 所 有 结 点 的 相似 性 
值 。 

此 外 ， 与 其 他 聚 类 算法 相 比 ， 例 如 k-Means 聚 类 算法 等 中 ， 基 于 相关 性 聚 类 
的 实体 解析 存在 5 方面 的 优势 : 其 一 ， 有 清晰 的 聚 类 质量 概念 ， 即 形成 的 聚 类 结 
果 满 足 “ 一 致 性 权 值 最 大 ”或 “不 一 致 性 权 值 最 小 ”原则 多 ;其 二 ， 不 需要 预先 
指定 聚 类 结果 中 簇 的 数目 ， 该 数目 可 以 是 1 到 ?之 间 的 任何 一 个 数 ， 其 三 ， 不 依 
赖 数 据 出 现 的 顺序 ， 并 且 以 无 监督 方式 学 习 聚 类 ; 其 四 ， 相似 图 形 中 边 的 权 值 可 
以 是 位 于 [0,1] 区 间 内 的 任意 实数 值 ， 不 一 定 是 0 或 1 这 种 二 元 值 。 其 五 ， 相 关 性 
聚 类 代表 一 种 基于 邻接 (Adjacency-based) 测量 的 图 形 聚 类 方法 8B0， 因 此 ， 适 合 
在 相似 图 形 上 进行 聚 类 。 

最 后 ， 相 关 性 聚 类 的 目标 是 在 相似 图 形 上 找到 一 个 最 佳 聚 类 结果 ， 使 得 该 聚 
类 结果 尽 可 能 与 结 点 间 的 相似 性 值 〈 边 的 权 值 ) 一 致 。 
4.2 目标 函数 
4.2.1 相关 定义 

相关 性 聚 类 在 相似 图 形 上 找 最 佳 聚 类 结果 的 过 程 ， 实 质 上 是 一 个 整数 规划 问 
题 ， 而 且 是 一 个 NP-hard 问题 ， 因 而 需要 采用 近似 求解 方法 PM 站 。 尽 管 有 两 种 采用 
不 同 近 似 观点 的 策略 去 解决 这 个 问题 , 但 解决 这 个 问题 的 关键 是 如 何 定 义 一 个 目 
标 函 数 (Objective Function〉， 因 为 相关 性 聚 类 利用 目标 函数 (惩罚 函数 ) 来 评 
价 聚 类 结果 的 质量 , 并 选择 能 优化 目标 函数 值 的 某 个 聚 类 结果 作为 最 佳 聚 类 结 
为 便于 清晰 地 说 明 目 标 函 数 是 如 何 被 定义 的 ,笔者 仅 从 聚 类 结果 满足 “不 一 致 性 
权 值 最 小 ”原则 这 一 策略 进行 分 析 。 

与 其 他 依据 边 的 权 值 来 删除 边 、 结 点 的 方法 类 似 卢 ]， 目 标 函 数 的 定义 也 是 基 
于 边 的 权 值 。 不 同 于 文献 中 在 定义 目标 函数 时 只 考虑 边 的 权 值 为 二 元 值 的 情况 : 
“1” 表 示 相 似 ，“-1” 表 示 不 相似 ,文献 外 将 边 的 权 值 定义 为 位 于 某 区 间 段 (如 
[0.8-1.0]〉 的 任意 实数 ， 因 而 基于 这 样 的 权 值 定义 的 目标 函数 也 更 切合 实际 。 不 
管 权 值 怎样 定义 ， 为 使 聚 类 结果 满足 “不 一 致 性 权 值 最 小 ”原则 ， 定 义 目标 函数 


的 思想 是 : KARAR TE (High Cohesion〉， 惩 罚 簇 间 的 高 相关 性 (High 
Correlation) 。 其 中 , 高 内 聚 性 是 通过 艇 内 结 点 间 的 相似 性 或 紧密 度 测量 来 判定 ， 
高 相关 性 是 通过 簇 间 结 点 间 的 相似 性 或 紧密 度 测量 来 判定 。 

具体 来 说 ， 为 了 定义 这 样 一 个 目标 函数 以 实现 近似 求解 ， 主 要 从 两 方面 来 进 
行 考虑 : 对 簇 内 的 每 对 节点 来 说 , 存在 一 个 关于 它们 不 相似 的 聚合 惩 避 (Cohesion 
Penalty) ， 值 为 1 一 sim(r,r'); 对 簇 间 的 每 对 节点 来 说 ， 存 在 一 个 关于 它们 相似 
的 相关 性 惩罚 (Correlation Penalty) ， 值 为 sim(7,r')。 接 下 来 ， 就 可 基于 这 些 逢 
罚 值 定义 出 一 个 满足 要 求 的 目标 函数 ,如 式 〈1) 所 示 。 很 显然 , 如 果 通 过 式 (1) 
计算 出 的 总 惩罚 值 最 小 ， 那 么 其 对 应 的 聚 类 结果 将 是 满足 “不 一 致 性 权 值 最 小 ” 
原则 的 最 佳 聚 类 结果 ,同时 意味 着 簇 内 的 结 点 将 保持 高 聚合 性 ， 艇 间 的 结 点 将 保 
持 低 相关 性 。 

CC(Lc) = > (1 — sim(r,r')) + sim(r,r’) (1) 

CELGr,r'EC C,C'ELG,C+C',reC,r'ecC' 

其 中 ，C, Ce Ce 表示 ，C, 6 是 聚 类 结果 Ce (Ce 表示 6G 上 的 聚 类 结果 ) 中 的 两 
AAEE. r,r! € CHAN, r,r IRCA ATA. re Cr ECRI, r,r' 
4y BN AAS AS Td REC IC 
4.2.2 实例 分 析 

为 深入 分 析 相 关 性 聚 类 是 如 何 通过 计算 目标 函数 来 选择 一 个 最 佳 聚 类 结果 ， 

笔者 通过 一 个 启发 性 例子 来 详细 阐述 这 一 过 程 。 
图 4 (a) 是 一 个 相似 图 形 ， 通 过 对 10 条 记录 rn- mo 进行 成 对 计算 后 得 到 ， 计 
算 方式 如 表 2 所 显示 的 那样 ,例如 x 和 7 之 间 的 相似 性 值 为 0.9。 另 外 ， 如 果 任 意 
记录 对 的 相似 性 值 小 于 等 于 0.7， 那 么 它们 间 的 边 将 被 省 略 掉 。 假 设 相关 性 聚 类 
在 图 4 Ca) 的 相似 图 形 上 进行 一 次 聚 类 运算 后 ， 得 到 如 图 4 (b) 所 示 的 聚 类 结 
R, 包含 5 个 簇 C1 一 Cs。 接 下 来 , 用 目标 函数 来 判定 该 聚 类 结果 是 否 是 最 佳 的 ， 
即 对 徐 内 结 点 、 簇 间 结 点 的 惩罚 情况 进行 计算 分 析 。 

对 徐 C; 有 一 个 聚合 惩罚 ， 总 值 为 0.2+0.2+0.1+0.1+1=1.6， 其 中 , Aly ZY 
值 为 1-0.8=0.2，73 和 用 之 间 的 值 为 1-0.8=0.2，75 和 之 间 的 值 为 1-0.9=0.1，7 和 
ni 之 间 的 值 为 1-0.9=0.1，ny 和 ni 之 间 的 值 为 1-0=1。 

对 艇 C4 有 一 个 聚合 惩罚 ， 总 值 为 0.2+0.2+0=0.4， 其 中 ，7e 和 7 之 间 的 值 为 1- 
0.8=0.2，7o 和 7y 之 间 的 值 为 1-0.8=0.2，rg 和 ny 之 间 的 值 为 1-1=0。 

此 外 ， 聚 类 结果 对 簇 G4 和 Cs 则 有 一 个 相似 性 惩罚 (因为 有 边 相 连 ) ， 值 为 : 
0.8， 其 中 该 值 为 和 mo 间 的 相似 性 值 。 

需要 强调 的 是 ，C2 和 (5C3 是 单 点 徐 ， 即 该 复 仅 由 一 个 单独 的 结 点 组 成 ， 而 且 它 
们 也 不 与 其 他 的 复 相 连 ， 因 此 对 它们 不 存在 相关 的 惩罚 。 

最 后 , 通过 目标 函数 计算 出 的 总 惩罚 值 为 : CC(CCe) = 1.6 + 0.4 + 0.8 = 2.8。 
事实 上 ， 这 个 总 惩罚 值 2.8 是 在 所 有 可 能 聚 类 结果 中 算出 的 总 惩罚 值 中 的 一 个 最 
小 总 惩罚 值 (鉴于 计算 过 程 的 复杂 性 ， 这 里 没有 给 出 如 何 计 算出 另 一 个 聚 类 结果 
的 总 惩罚 值 ， 并 用 它 来 进行 比较 ) 。 因 此 , 该 总 惩罚 值 所 对 应 的 聚 类 结果 将 满足 
“不 一 致 性 权 值 最 小 ”原则 ， 因 而 其 被 认为 是 最 佳 的 聚 类 结果 。 


与 通过 匹配 的 传递 性 来 简单 判定 相连 的 一 组 记录 彼此 匹配 的 情况 不 同 ， 相 关 
性 聚 类 将 通过 目标 函数 来 进一步 分 析 它们 的 匹配 情况 ， 以 获得 最 佳 的 聚 类 结果 ， 
如 将 连 在 一 起 的 m>- rio 划 分 成 两 个 徐 : r-ra (Cy) 和 mo (Cs) ， 而 不 是 原先 的 一 
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5 面向 数据 演化 的 实体 解析 


通过 上 面 的 分 析 ， 我 们 了 解 到 相关 性 聚 类 则 在 在 相似 图 形 G 上 找到 一 个 最 佳 
的 聚 类 结果 。 然 而 ， 在 实际 应 用 中 ， 数 据 集 在 每 段 时 间 都 会 有 新 的 数据 新 增 、 删 
除 或 修改 〈 统 称 为 增 量 操作 ) ， 这 些 操作 将 会 相应 地 在 原来 相似 图 形 上 带 来 一 些 
变化 AG。 在 理想 情况 下 , 我 们 仍 希望 能 在 相似 图 形 6 + ACG 上 找到 一 个 最 佳 的 聚 类 
结果 ， 从 而 实现 面向 数据 演化 的 实体 解析 目标 。 

为 较 全 面 系统 地 分 析 面 问 数 据 演化 的 实体 解析 过 程 涉及 到 的 关键 技术 ， 笔 者 
从 增 量 聚 类 过 程 、 增 量 操作 、 增 量 性 质 和 增 量 聚 类 算法 四 个 方面 进行 详细 阐述 。 
5.1 增 量 聚 类 过 程 

对 演化 的 数据 进行 解析 的 过 程 本 质 上 是 一 个 增 量 聚 类 过 程 。 增 量 聚 类 过 程 
主要 分 为 三 个 步骤 : 记录 对 的 相似 性 计算 、 基 于 相似 图 形 的 相关 性 聚 类 和 面向 
数据 演化 的 增 量 聚 类 。 图 5 中 用 序号 帆 、 包 和 名 分 别 对 各 个 步骤 进行 了 标注 。 
从 图 中 可 以 看 出 ， 第 三 步 面 向 数据 演化 的 增 量 聚 类 的 实现 是 在 第 二 步 聚 类 结果 
的 基础 上 ， 对 增 量 操作 涉及 的 记录 进行 聚 类 分 析 。 很 显然 ， 这 个 聚 类 分 析 过 程 
具有 一 定 的 挑战 性 ， 因 为 它 需要 解决 如 何 对 原 有 簇 的 结构 进行 调整 ， 调 整 的 依 
据 是 什么 ， 以 及 如 何 利 用 新 到 来 的 证 据 修 正 先前 聚 类 结果 中 可 能 存在 的 错误 
等 。 为 对 增 量 聚 类 过 程 的 完整 性 有 一 定 的 了 解 ， 笔 者 将 简明 扼要 地 阐述 其 中 的 
三 个 步骤 及 其 关联 性 。 


of | pte, | 回 基于 相似 图 形 
(o) O 


的 相关 性 聚 类 


(AD) 增 量 操作 
Aa Tig) 


第 一 步 ， 记 录 对 的 相似 性 计算 : 计算 数据 集 Cri- rio) 中 记录 对 的 相似 性 值 ， 
FRG ABEE KF BME CO 0.7) 的 相似 性 值 作为 边 的 权 值 来 构造 一 个 带 权 的 相似 图 
形 G6， 如 图 5 Ca) 所 示 。 这 时 ， 如 果 简 单 地 按照 匹配 的 传递 性 来 分 析 它 们 ， 即 将 
相连 的 结 点 看 成 是 一 个 簇 (组 、 块 ) , 那么 将 形成 4 个 簇 : Yi- Tgn Ts、 re 和 ry- Tige 
每 个 簇 代 表 一 个 现实 世界 实体 。 本 质 上 ， 每 个 簇 是 一 个 记录 子 集 ， 簇 内 的 记录 语 
法 上 彼此 相似 。 然 而 ， 这 种 分 析 可 能 会 导致 出 现 错误 ， 即 尽管 它们 相连 在 一 起 ， 
但 未 必 是 属于 同一 个 簇 。 

第 二 步 ， 基 于 相似 图 形 的 相关 性 聚 类 : 针对 第 一 步 中 对 簇 形成 的 分 析 可 能 存 
在 错误 ， 相 关 性 聚 类 能 在 相似 图 形 上 依据 目标 函数 来 计算 并 形成 通 ， 而 不 是 依据 
匹配 的 传递 性 。 县 体 来 说 ， 相 关 性 聚 类 的 聚 类 算法 以 相似 图 形 作 为 输入 ， 依 据 目 
标 函 数 来 计算 出 一 个 最 佳 的 聚 类 结果 ,这 意味 着 尽管 有 些 结 点 相互 连 在 一 起 ,但 
它们 被 划分 到 不 同 的 簇 可 能 会 更 好 些 。 如 图 5 Cb) 中 , 经 过 相关 性 聚 类 分 析 后 ， 
rio 被 日 独 划 分 成 是 一 个 艇 Cs, 这 样 , 聚 类 结果 包含 5 MR: ri ra CC) ~ rs (C2)、 
re (C3) ~ T7-rə (Cy) Mro (C5) ， 比 第 一 步 多 了 一 个 艇 。 

第 三 步 ， 面 向 数据 演化 的 增 量 聚 类 : 与 前 面 在 与 静态 数据 集 对 应 的 相似 图 形 
上 进行 聚 类 分 析 不 同 , 面向 数据 演化 的 增 量 聚 类 解决 的 是 如 何 对 增 量 操作 (AD， 
Tia Trie) 中 涉及 的 记录 进行 聚 类 分 析 。 很 显然 ， 增 量 聚 类 不 仅 需要 将 增 量 操作 中 
涉及 的 每 条 记录 看 成 是 一 个 单 点 艇 〈 复 内 仅 包 含 记录 本 喘 ) ， 而 且 需 要 利用 先前 
的 聚 类 结果 , 这 样 , 才能 像 凝 聚 聚 类 (如 Swoosh P 那样 去 迭代 地 合并 相似 复 ， 
从 而 实现 增 量 聚 类 目标 。 有 具体 来 说 ， 当 增 量 操作 AD, nino) 依次 到 达 时 ， 其 
涉及 的 每 条 记录 将 被 看 成 是 一 个 单 点 艇 , 将 其 与 先前 聚 类 结果 中 的 能 (Ci 一 Cs) 
进行 合并 ,接着 ， 增 量 聚 类 算法 就 可 在 所 有 这 些 徐 上 进行 聚 类 分 析 以 得 到 一 个 最 
佳 的 聚 类 结果 。 这 种 聚 类 分 析 不 仅 会 联合 考虑 结 点 间 的 关系 ,而 且 会 利用 新 来 的 


证 据 去 识别 并 修正 先前 错误 的 聚 类 结果 。 如 图 5(b) 中 的 簇 C, 和 Cs 被 合并 成 5Cc) 


中 的 艇 C3， 即 它们 合并 成 同一 个 艇 可 能 会 更 好 。 


5.2 增 量 操作 


面向 数据 演化 的 增 量 聚 类 过 程 本 质 上 是 基于 增 量 操作 的 增 量 聚 类 过 程 。 增 量 
操作 AD 不 仅 让 静态 数据 集 动态 变化 , 而 且 也 让 与 静态 数据 集 对 应 的 相似 图 形 6 动 


态 变 化 ， 并 形成 增 量 图 形 AG。 在 形成 增 量 图 形 AG 的 过 程 中 ， 增 量 操作 AD 主 要 涉 


及 到 三 种 具体 的 子 操作 : 


(1) 新 增 操作 (Insert〉: 向 数据 集中 插入 一 条 记录 相当 于 在 相似 图 形 G 中 增 


加 一 个 节点 ， 并 增加 与 该 结 点 相连 的 多 条 边 。 有 具体 来 说 ， 首 先 , 在 AG 中 包括 这 个 
新 结 点 ， 并 找到 与 新 结 点 关联 性 强 的 复 。 接 着 ， 将 新 结 点 与 篮 内 各 结 点 依次 进行 
比较 以 得 到 相似 性 值 ， 如 果 相 似 性 值 大 于 阔 值 ， 那 么 就 将 它们 间 的 边 (包含 作 为 
权 值 的 相似 性 值 ) 加 入 到 AC 中 。 

(2) 删除 操作 〈Delete) : 在 数据 集中 删除 一 条 记录 相当 于 在 相似 图 形 G 中 
删除 一 个 节点 ， 并 删除 与 该 节点 相连 的 多 条 边 。 有 具体 来 说 , 在 AG 中 包括 这 个 删除 


的 结 点 和 与 其 相连 接 的 边 。 


(3) EIERE (Change) : 更 新 数据 集中 一 条 记录 的 操作 相当 于 在 相似 图 形 
G 中 删除 与 该 结 点 相连 的 现 有 的 边 ， 并 向 相应 的 结 点 增加 新 的 边 。 具 体 来 说 ， 在 
AG 中 包括 权 值 发 生 改变 的 边 。 

值得 注意 的 是 ， 更 新 操作 是 修改 现 有 记录 的 一 个 或 多 个 属性 值 。 更 新 操作 可 


通过 首先 删除 旧 的 记录 ， 然 后 插入 一 条 新 记录 来 实现 。 然 而 ， 有 时 直接 考虑 更 新 


属性 值 可 能 会 更 有 效 。 


本 质 上 ， 形 成 增 量 图 形 AG 的 过 程 ， 就 是 在 原来 的 相似 图 形 G 上 增加 点 、 边 的 


过 程 ,， 因 而 可 用 G + AG 来 表示 这 一 过 程 的 结果 。 很 显然 , G + AG 还 是 一 个 相似 图 


形 ， 因 为 其 构成 方式 与 静态 数据 集 下 的 构成 方式 一 样 。 


5.3 增 量 性 质 


尽管 增 量 操作 形成 了 新 的 相似 图 形 G + AG， 但 原来 的 相似 图 形 G 上 的 聚 类 结 


果 信息 依然 还 在 。 很 显然 ， 


如 果 相 关 性 聚 类 仍 能 利用 这 些 先前 的 聚 类 结果 ， 那 么 


它 就 能 对 增 量 操作 实施 增 量 聚 类 分 析 。 然而, 相关 性 聚 类 本 身 并 不 支持 增 量 限 类 


分 析 ， 因 为 它 只 能 在 结 点 层面 (一 次 解析 一 个 结 点 ) 而 非 禾 层面 上 进行 分 析 ， 从 
而 无 法 利用 先前 的 聚 类 结果 。 为 让 相关 性 聚 类 能 在 簇 层 面 上 进行 增 量 聚 类 分 析 ， 
以 实现 面向 数据 演化 的 实体 解析 目的 ， 必 须 让 相关 性 聚 类 (本质 上 是 算法 ) 满足 


增 量 性 质 j 其 定义 如 下 : 


增 量 性 质 (GENERAL INCREMENTAL) "H: 定义 F 为 一 个 批量 聚 类 算法 , 算 
法 的 输入 是 记录 的 聚 类 结果 (对 应 图 5 b) ) 。 令 S(G) 是 一 个 由 相似 图 形 G 中 每 


个 结 点 形成 的 单 点 艇 所 组 成 的 集合 。 对 某 个 子 图 G'S G， 如 果 有 F(S(G\G')U 
F(S(G')) = F(S(G))， 那 么 就 说 算法 fF 满足 增 量 性 质 。 


式 子 F(S(C)) 表 示 ， 批 量 聚 类 算法 对 子 图 6 中 的 单 点 复 进 行 聚 类 。 式 子 


F(S(G\G') 表示， 对 相似 图 


形 G 中 除 子 图 6G' 外 的 单 点 簇 进行 诊 类 。 式 子 F(S(G)) 表 


示 ， 对 相似 图 形 G 中 的 所 有 单 点 簇 进行 聚 类 。 
式 子 F(S(G\G') UF(S(G')) = F(S(G)) 表 示 , 等 式 两 边 的 聚 类 结果 相同 , 并 且 
所 使 用 的 算法 相同 , 但 却 采 用 不 同 的 聚 类 思想 。 等 式 右边 采用 的 是 批量 聚 类 思想 ， 


即 对 相似 图 形 C 中 所 有 单 点 复 进 行 批量 聚 类 分 析 《〈 和 迭代 地 合并 相似 匀 ) 。 等 式 左 


边 采 用 的 是 增 量 聚 类 思想 


， 即 先 将 相似 图 形 G 图 形 分 成 两 个 不 相交 的 部 分 6 和 


G\G (AY Ap All A A CE CAT AS EIS St A)» PR FOG ET eR 
类 分 析 ,， 后 对 GNG' 进 行 批量 聚 类 分 析 ， 最 后 将 两 部 分 的 聚 类 结果 合并 形成 最 终 的 
聚 类 结果 。 

当 相 关 性 聚 类 算法 满足 增 量 性 质 时 , 我 们 就 可 将 增 量 图 形 AG 中 的 单 点 徐 与 先 
前 聚 类 结果 中 的 艇 合并 在 一 起 , 并 在 其 上 直接 运用 相关 性 聚 类 算法 来 进行 聚 类 分 
析 。 换 句 话说 ， 我 们 能 基于 增 量 性 质 来 定义 增 量 聚 类 结果 FG,AG, Lo) = F(LeU 
S(AG))。 

5.4 增 量 聚 类 算法 

通过 对 增 量 性 质 的 分 析 可 知 ， 为 获得 增 量 聚 类 结果 ， 我 们 最 终 只 要 在 相似 图 
形 G +AG 上 运行 满足 增 量 性 质 的 相关 性 聚 类 算法 即 可 。 很 显然 , 我 们 需要 一 个 增 
量 聚 类 算法 来 找到 对 应 的 子 图 , 并 调用 相关 性 聚 类 算法 在 该 子 图 上 进行 聚 类 分 析 
即 可 。 这 样 ， 设 计 增 量 聚 类 算法 时 的 主要 思想 是 : 更 新 与 增 量 操作 涉及 的 记录 直 
接 相 关联 的 那个 子 图 ， 而 不 是 其 他 子 图 。 

通过 对 增 量 操作 的 分 析 可 知 ， 这 个 直接 相关 联 的 子 图 要 么 是 原来 就 存在 的 相 
关联 子 图 〈 在 相似 图 形 上 删除 、 修 改 结 点 的 操作 ) ， 要 么 是 新 近 形 成 的 相关 联 子 
图 〈 在 相似 图 形 上 增加 结 点 的 操作 ) 。 图 6 中 “涉及 的 子 图 ”表示 一 个 与 增 量 操 
作 涉 及 的 记录 直接 相关 联 的 子 图 。 本 质 上 ， 子 图 就 是 一 个 由 簇 组 成 的 集合 ,包括 
先前 聚 类 结果 中 的 艇 ( 蓝 圆圈 表示 ), 以 及 增 量 操作 中 涉及 的 簇 ( 检 圆圈 表示 )。 
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图 6 相似 图 形 中 的 两 个 子 图 
最 后 ， 依 据 设 计 的 思想 和 直接 相关 联 子 图 的 确定 方式 ， 增 量 聚 类 算法 主 


要 分 为 三 个 步 又 : 

第 一 步 ， 找 到 直接 相关 联 的 子 图 。 在 实施 子 图 查找 时 要 区 分 是 哪 种 增 量 
操作 ， 例 如 ， 删 除 和 修改 操作 下 的 查找 方式 类 似 ， 而 增加 操作 下 的 查找 方式 
与 之 不 同 。 

第 二 步 ， 找 到 直接 相关 联 子 图 上 的 最 佳 聚 类 结果 。 在 找到 的 直接 相关 联 
子 图 上 使 用 相关 性 聚 类 算法 来 进行 聚 类 分 析 ， 进 而 得 到 该 子 图 的 新 的 最 佳 聚 
类 结果 ERER) 。 

第 三 步 ， 构 造 出 新 的 最 佳 聚 类 结果 。 通 过 利用 第 二 步 中 子 图 上 的 最 佳 簇 
蔡 换 其 原来 的 旧 艇 ， 来 从 原来 的 最 佳 聚 类 结果 中 构造 出 新 的 最 佳 珍 类 结果 。 


6 结论 


随 着 数据 日 益 增 长 ， 基 于 聚 类 技术 的 增 量 实体 解析 正成 为 一 项 越 来 越 重要 的 
任务 。 相 较 于 其 他 聚 类 技术 ， 相 关 性 聚 类 具有 诸多 优势 ， 因 而 基于 相关 性 聚 类 的 
增 量 聚 类 算法 能 满足 数据 演化 下 的 增 量 解析 需求 。 然 而 , 为 有 效 实现 面向 数据 演 
化 的 实体 解析 目标 ， 设 计 增 量 聚 类 算法 时 需要 考虑 两 个 方面 的 因素 : 一 是 获得 的 
聚 类 结果 质量 应 该 与 批量 聚 类 算法 相似 ; 二 是 应 该 有 比 批量 聚 类 算法 更 快 的 运行 
速度 ， 特 别 是 在 增 量 操作 次 数 较 少 的 情况 下 。 只 有 这 样 ， 增 量 聚 类 算法 的 聚 类 质 
量 和 聚 类 效率 才 有 可 能 得 到 保障 。 

本 文 回顾 了 增 量 实体 解析 的 相关 研究 ， 并 系统 深入 地 梳理 和 总 结 了 面向 数据 
演化 的 增 量 聚 类 过 程 ， 在 此 基础 上 ， 笔 者 了 解 到 现 有 研究 还 存在 两 点 不 足 : 

C1) 没有 考虑 到 如 何 高 效 快速 定位 到 与 增 量 操作 涉及 的 入 直接 相关 的 子 图 。 
例如 对 于 增加 记录 的 操作 , 在 构造 增 量 图 形 AG 前 , 我 们 必须 先 从 相似 图 形 的 众多 
子 图 中 确定 哪个 子 图 最 有 可 能 与 增加 的 记录 相似 , 然后 再 计算 它 与 这 个 确定 子 图 
中 各 结 点 间 的 相似 性 值 。 显 然 ， 这 个 查找 子 图 的 过 程 对 增 量 聚 类 算法 的 执行 速度 
有 着 关键 的 影响 ， 这 一 问题 被 看 成 是 相似 性 连接 问题 41。 

(2) 没有 考虑 到 如 何 快速 比较 两 个 艇 的 相似 性 。 在 查找 子 图 的 过 程 中 ， 有 一 
些 很 可 能 匹配 的 候选 子 图 ,为 进一步 快速 确定 哪个 子 图 最 有 可 能 ， 需 要 对 两 个 篮 
进行 快速 比较 , 这 涉及 到 簇 代表 问题 ,因为 簇 的 比较 过 程 实质 上 是 将 艇 内 某 个 代 
表 记 录 与 另 一 个 徐 的 代表 记录 进行 比较 。 显然, 计算 两 个 簇 之 间 的 相似 性 值 时 所 
采用 的 方法 (如 单 链 接 、 全 链接 、 平 均 链接 和 代表 记录 等 ) 与 具体 的 应 用 相关 ， 
并 且 还 要 仔细 考虑 应 用 构建 者 的 意见 中 1。 
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